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摘 要 : 针对 开放 域 对 话 系统 中 存在 的 话题 转移 问题 以 及 对 话 内 容 中 存在 大 量 短文 本 的 情况 ， 传 统 的 基于 相似 性 的 处 
理 方 法 存在 很 大 的 局 限 性 ， 创 新 地 提出 通过 对 话 系 统 中 前 后 句子 的 相关 性 判断 分 割 点 ， 实 现 话题 分 割 ， 并 比较 了 相关 
性 与 相似 性 在 计算 中 对 句子 信息 利用 的 不 同 之 处 。 提 出 一 种 相关 性 计算 方法 ， 并 将 该 方法 用 于 话题 分 割 ， 最 终 实现 话 
题 转 移 检 测 。 通 过 与 现 有 方法 的 对 比 实验 ， 表 明了 提出 的 相关 性 计算 方法 的 有 效 性 。 
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Abstract: In view of the problems of topic transfer and the existence of a large number of short text in the dialogue content in 
open domain dialogue systems, the traditional similarity-based processing method has many limitations. This paper proposeed 
an innovative method, which is based on the relevance of the sentences to determine whether the dialogue topic transfer, and 
compares the difference between the correlation-based and the similarity-based methods in revealing the relationship between 
sentences. Furthermore, this paper presents a correlation-based algorithm to calculate the correlation of words and apply it to 


segment topics of sentences, and this can address some challenges of topic transfer detection. Comparing with existing methods, 


the experimental results demonstrate the superior performance of the correlation-based method in this paper. 
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问题 。 
0 言 
显然 ， 话 题 分 割 的 依据 是 对 话 系统 中 聊天 内 容 ， 它 为 查找 
随 着 计算 机 技术 与 大 数据 产业 的 快速 发 展 ， 人 机 对 话 系 统 ”和 生成 应 答 语句 提供 非常 重要 参考 。 但 是 ， 这 些 历史 对 话语 料 


亦 得 到 迅猛 发 展 ,进而 推动 了 对 话 系统 的 研究 如 火 如 茶 地 展开 ， 信息 有 其 自身 的 特殊 性 ， 比 如 : 聊天 语句 有 可 能 会 很 得 ， 聊 天 
在 学 术 界 和 工业 界 受 到 广泛 关注 。 目 前 ， 人 机 对 话 系 统 的 研究 。” 语句 中 的 指 代 现象 过 于 严重 ， 等 等 。 当 聊天 语句 很 短 的 时 候 ， 
成 为 人 工 智 能 领域 一 项 非常 重要 而 且 极 具 挑 战 性 的 工作 四， 而 如 “好 的 ”只 能 从 句子 中 获得 一 种 肯定 的 态度 信息 ， 其 他 信息 
究 中 存在 许多 蝇 待 解决 的 问题 。 则 很 难 获得 。 当 聊天 语句 中 指 代 现象 太 过 严重 时 ， 如 “他 给 她 

对 话 系 统 的 核心 任务 就 是 根据 历史 对 话 信息 生成 应 答 语 句 。 打 了 个 电话 ”已 经 康复 了 ”等 只 看 单个 句子 根本 无 法 理解 其 准 
中 。 有 效 完成 该 任务 的 关键 是 话题 追踪 。 话 题 追 踪 负 责 检测 整 ” 确 意思 ， 而 这 种 指 代 和 省 略 现 象 在 口语 中 非常 常见 ， 任 何 一 种 
个 对 话 过 程 中 的 话题 转变 B]， 实 现 话 题 分 制 ， 在 系统 生成 应 答 。 语言 的 口语 中 都 存在 的 问题 由 。 另 外 ， 对 话 系统 中 用 户 给 出 的 
语句 过 程 中 能 够 根据 当前 话题 生成 话题 相关 语句 或 话题 引导 语 “句子 可 能 不 符合 标准 的 语言 规范 ， 这 种 情况 增加 了 对 话 系统 中 
句 ， 使 对 话 系 统 不 会 出 现 “ 所 答 非 所 问 ” 这 正 是 本 文 要 解决 的 通过 规则 和 模板 处 理 语句 的 难度 。 目 前 ， 依 据 聊 天 语 料 进行 话 
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题 分 割 的 工作 是 基于 相似 度 、 边 界 和 概率 图 模型 等 算法 实现 的 ， 
计算 过 程 中 通过 计算 文本 句子 上 下 文 之 间 的 相似 度 来 判定 话题 
的 边界 。 而 忽略 了 上 下 文 的 相关 性 关系 。 文 本 相似 度 虽然 能 在 
一 定 程度 上 计算 出 上 下 文 的 语义 关系 ， 但 是 文本 前 后 句子 的 关 
系 除了 相似 关系 还 有 上 下 位 分 等 级 的 关系 和 相关 关系 。 

针对 上 述 问题 ， 本 文 完成 如 下 工作 : 

a) 分 析 了 相似 度 局 限 性 ， 针 对 对 话 系 统 话题 分 割 的 划分 分 
割 点 的 要 求 ， 提 出 了 一 种 在 语义 空间 中 构建 词 向 量 的 哈 夫 曼 编 
码 树 ， 计 算 词语 相关 性 的 方法 ，b) 将 词语 的 相关 性 计算 信息 拓 
展 到 对 话 系统 中 句子 的 相关 性 计算 ，c) 根 据 句子 之 间 的 相关 性 
识别 对 话 系统 上 下 文中 不 同 话题 的 边界 ， 由 此 判断 话题 转移 概 
率 并 进行 话题 分 割 实现 话题 转移 检测 。 


1 ”相关 工作 


1.1 相似 性 的 局 限 性 分 析 

在 自然 语言 处 理 领域 ， 将 文本 文档 作为 聊天 语 料 进 行 分 割 
研究 的 工作 已 经 非常 广泛 ， 现 有 工作 分 别 基 于 相似 度 、 边 界 和 
概率 图 模型 等 提出 了 一 些 方法 ， 但 是 这 些 方法 中 大 多 采用 计算 
文本 句子 上 下 文 之 间 的 相似 度 来 判定 话题 的 边界 ， 文 本 相似 度 
虽然 能 在 一 定 程度 上 计算 出 上 下 文 的 语义 关系 ， 但 是 文本 前 后 


机 


句子 的 关系 除了 相似 关系 还 有 上 下 位 分 等 级 的 关系 和 相关 关系 。 
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算 方法 是 检索 距离 法 ， 即 在 检索 结果 中 的 相似 度 。 有 具体 方法 是 
通过 计算 斯 皮尔 曼 等 级 相关 系数 判断 检索 结果 中 的 数据 是 否 具 
有 一 致 性 ， 一 致 性 程度 通过 Consine 距离 计算 得 出 。 该 方法 使 
的 是 数据 的 相似 度 做 计算 ， 另 外 由 于 开放 域 对 话 系 统 的 实体 
数 和 关系 数量 众多 ， 使 用 维基 百科 数据 集 存在 一 定 有 限 性 。 

Song 等 人 在 TextTiling 基础 上 提出 了 启发 式 方案 计算 相似 
度 。TextTiling 中 的 相似 度 计算 如 式 (3) 所 示 。 


Si 


sim(S,,S,) = cos(s,,s,) = (3) 


lsl-ls,| 


改进 后 的 计算 方法 如 式 (4) 所 示 ， 


sim(§$,,5) = Pmax’s {cos (wy) © 


其 中 : w, 和 vw 分 别 是 % 和 中 的 一 个 词语 ，n 和 ,分 别 表示 
S 和 $, 的 词语 数 。 即 将 逐个 词语 计算 所 有 词 对 相似 度 修改 为 
将 一 组 比较 中 最 高 相似 度 记 为 句子 的 相似 度 。 本 文 的 工作 将 在 
此 向 量 空 间 和 相似 度 计 算 方 法 基础 之 上 改 用 相关 度 计算 来 确定 
对 话 系统 上 下 文中 的 话题 边界 ， 进 行 对 话 分 割 。 
1.3 ”话题 模型 

在 自然 语言 研究 领域 ， 已 经 有 一 些 用 来 处 理 语义 空间 概念 
和 话题 的 文本 的 主题 话题 模型 , 如 LDA、LSI 和 LSA 等 。 其 中 
LSI 通过 在 数据 集 上 进行 矩阵 分 解构 建 语义 空间 ， 再 将 文档 内 


刘 群 等 为 了 区 分 语义 相似 与 语义 相关 给 出 了 相关 性 的 概念 定义 
51。 相似 性 量化 并 不 是 面向 相关 关系 的 ,概念 不 一 致 外。 相似 性 


-二 


荆 


容 和 词语 映射 到 语义 空间 进行 计算 。 这 些 方法 通过 词语 共 现 的 
关联 关系 表示 语义 空间 ， 这 种 情况 下 ， 某 个 词语 可 能 和 一 个 话 


表示 词汇 具有 某 种 可 蔡 代 性 ， 有 某 些 相同 内 涵 特 征 或 者 属性 特 
征 ; 相关 性 表示 词汇 语义 上 具有 某 种 相互 依赖 、 相 互 影 响 的 特 
征 。 因 而 ， 在 聊天 语 料 话题 分 割 任务 中 ， 确 定 话题 分 割 点 时 以 
句子 内 容 之 间 的 相关 性 作为 判断 依据 ， 比 以 相似 性 做 判断 ， 会 
有 更 高 的 准确 性 和 合理 性 。 基 于 以 上 对 文本 相似 性 和 相关 性 的 
分 析 ， 本 文采 用 词汇 相关 度 计算 代 蔡 其 他 模型 使 用 的 词汇 相似 
度 计 算 。 

1.2 相关 性 研究 

在 上 一 部 分 中 已 经 对 文本 的 相关 性 给 出 解释 。 相 关 性 的 计 
算 中 ， 信 息 糯 中 可 以 用 来 表示 词语 关系 的 不 确定 性 程度 ， 单 个 
词语 x 业 的 计算 如 式 (TD) 所 示 。 


S=- 忆 PologPO () 


其 中 ，P(x) 表示 词语 x 出 现 的 概率 。 而 计算 词语 x 与 词语 y 的 
信息 粒 则 如 式 (2) 所 示 。 
SCY|X)=S{PCx, y))} —S {PO} (2) 
其 中 要 计算 在 已 知 词语 x 情况 下 再 获得 词语 》 的 信息 粹 ， 其 中 
P(x,y) 则 用 来 计算 在 开放 域 语 料 上 两 个 词语 的 共 现 概率 , 在 后 
面 计算 相关 性 分 析 中 借鉴 了 这 种 思想 ,另外 的 协 方差 和 SVD 计 
算 方法 都 存在 计算 量 大 和 语 料 规模 需求 量 大 的 问题 ， 不 太 适 合 
] 于 开放 域 文本 的 相关 性 计算 。 
诺 志 群 等 人 四 利用 中 文 维基 百科 数据 集中 的 分 类 体系 和 页 


ee 


题 相 关 性 特别 强 ， 但 也 会 因为 语 料 规模 和 质量 的 关系 而 表现 出 
较 弱 的 相关 性 站。 这 些 基 于 词 频 共 现 和 算 阵 分 解 的 方法 忽略 了 
词 序 列 顺序 ， 用 于 短文 本 较 多 的 口语 对 话 系统 ， 会 降低 算法 在 
文本 文档 上 表现 的 性 能 。 
1.4 对 话 分 割 
在 文本 分 割 的 相关 研究 中 , 最 早 由 Hearst09 提 出 TextTiling 
分 割 方法 。 先 将 文本 划分 为 句子 级 单位 ， 再 对 上 下 文中 的 各 个 
单位 的 关联 性 进行 打分 。 根 据 Cosine 距离 来 计算 各 单位 相似 性 ， 
再 按照 相似 性 划分 话题 边界 。 
Liu 等 人 0 的 文本 分 割 方法 与 TextTiling 方法 思路 相近 , 分 
割 边 界 的 评判 用 的 是 词语 在 语义 空间 中 的 Cosine 距离 , 之 后 同 
样 使 用 经 验 闵 值 做 分 割 。 将 这 部 分 工作 与 LSA 结合 用 于 为 中 文 
文本 生成 摘要 。 
分 博 伟 等 人 [ 雪 降 低 了 TextTiling 方法 中 模型 对 下 文 内 容 的 
依赖 ， 用 相对 坡度 下 降 值 代替 传统 方法 中 的 绝对 坡度 下 降 值 ， 
这 样 可 以 有 效 地 解决 连续 query 之 间 的 相似 度 低 造 成 的 段落 无 
法 正确 划分 的 问题 。 改 进 后 的 句子 间 相 对 深度 计算 式 (5) 所 示 。 


Sim,,, 一 sim, 
depth 一 max itl ,0 + 
Sim, 


max ae SU,,, ,0 
Sim 


其 中 ，depth 表示 相 邻 句子 相似 度 的 相对 坡度 ，sim， 表示 当前 


Sy 


ee 


(5) 


面 关联 链接 等 实体 和 关系 信息 计算 词语 的 相关 度 。 页 面 距离 计 


句子 与 下 一 名 的 相似 度 。 该 改进 方法 将 性 能 提高 了 3.8%。 
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Joty 等 人 [3 对 TextTling 算法 进行 了 改进 ， 不 再 使 用 阔 值 


界限 作为 分 割 标 准 ， 而 是 采用 自 上 而 下 的 分 层 聚 类 方法 ， 将 名 
子 序列 按照 不 同 话题 进行 切 分 ， 取 得 了 较 好 的 效果 。Malioutov 
等 人 09 则 将 句子 的 分 割 问题 转换 为 图 分 割 问题 ,并且 在 TF-IDF 


特征 基础 上 提出 了 一 种 最 小 分 割 模型 ， 通 过 切 分 演讲 报告 ， 


验 


证 了 方法 的 有 效 性 。Ye 等 人 05 通 过 改进 Dotplotting 算法 , 最 小 


化 两 类 话题 间 相 关 性 ， 同 时 最 大 化 两 类 话题 内 相关 性 ， 以 此 更 


精确 地 划分 不 同 话题 ， 从 而 获得 较 好 的 文本 切 分 效果 。 


人 类 语言 的 结构 一 直 都 没有 完好 的 结构 或 规则 ， 人 们 组 织 


的 口语 对 话 句子 中 经 常 出 现 元 余 、 偏 差 和 不 符合 书面 语 表达 的 


情况 ， 所 以 有 学 者 提出 对 规范 化 文本 进行 话题 分 析 。Blei 等 人 


09 已 提出 针对 在 Science 杂志 上 发 表 的 文章 的 相关 性 分 析 和 研 
究 ， 指 出 了 这 类 文章 的 编排 有 固定 的 格式 ， 而 且 杂 志 上 发 表 的 


文章 里 面 的 句子 一 般 都 符合 标准 的 语义 语法 结构 ， 符 合 人 人 


同 认同 的 书面 表达 习惯 。 作 者 分 析 了 各 个 文章 的 相关 性 ， 


] 共 


并 提 


出 了 针对 这 种 科技 型 文章 的 话题 模型 ， 实 验证 明了 模型 的 有 效 


性 。 


其 中 : 内 和 Wi 
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表示 需要 计算 相关 性 的 两 个 词语 。 


建 词 向 量 时 既 要 在 向 量 中 包含 词语 在 句子 中 的 位 


要 可 以 快速 索引 ， 因 此 在 普通 的 one-hot 模型 空 


算 的 。 本 文 借鉴 Google 的 Word2Vec 模型 [19] 中 


因为 需要 在 构 
置信 息 ， 还 需 
间 中 是 无 法 计 
Skip-Gram 的 


思路 训练 词 向 量 。 在 训练 好 的 语 料 的 向 量 空 间 基础 上 ， 结 合 


Huffman Softmax 模型 中 的 编码 信息 与 目标 词 对 应 的 词 向 量 , 最 
终 计算 得 出 两 个 词 相关 的 似 然 概 率 [20]。 将 在 网 络 上 抓 取 的 大 


规模 文本 数据 分 词 处 理 后 使 用 Word2Vec 模型 训 


词语 的 词 向 量 ， 


训练 过 程 中 还 产生 了 以 这 些 词 向 


练 得 到 语 料 中 
量 作为 叶子 节 


点 的 Huffman 编码 树 ， 其 中 的 非 叶 子 节点 中 存储 中 间 向 量 ， 这 


些 向 量 代表 了 它 对 应 的 所 有 子 节点 ， 即 可 以 通过 
词 向 量 与 当前 节点 下 叶子 节点 中 向 量 的 条 件 概率 
编码 路 径 序 列 C ， 将 需要 计算 相关 性 的 词语 w 


wi 的 Huffman 


1 l-—c 
Pi(i,0,c -os 于 ] 
( ) 二 二 l+e™ 
其 中 : 表示 输 


在 向 量 空间 中 的 词 向 量 与 编码 路 径 C 上 的 各 个 节点 c 计算 得 出 
整个 路 径 上 的 预测 概率 ,各 个 节点 的 概率 计算 过 程 如 式 (7) 所 示 。 


1 


计算 得 出 目标 
。 先 获取 词语 


;] 0) 


i 入 的 词 向 量 ，g 表示 节点 问 量 ， 


其 中 。eC， 表 


童 妆 见 等 人 0 在 自动 文摘 任务 中 使 用 主题 划分 ， 其 方法 融 


合 了 特定 语言 


特性 ， 无 法 将 该 方法 推广 到 开放 域 对 话 系统 中 


现象 和 文本 特征 ， 例 如 二 元 词组 频率 和 命名 实体 
重复 等 情况 。 取 得 了 不 错 的 效果 ， 但 是 因 开放 域 对 话 的 语 境 的 


El-Kishky 等 人 03 采 用 高 频 短语 分 割 文档 , 考虑 到 语言 的 非 


组 合 性 原则 ， 先 采用 词组 挖掘 方法 分 析出 高 频 重要 短语 ， 再 用 
这 些 高 频 短语 结合 统计 方法 分 割 文 本 ， 同 时 还 要 过 滤 一 些 级 联 


短语 。 在 候选 话题 分 配 过 程 中 将 短语 各 部 分 约束 到 一 个 共享 的 


候选 主题 下 ， 最 终 确定 主题 分 布 。 


Song 等 人 改进 TextTiling 算法 时 提出 相 邻 句子 中 的 重复 信 


息 具 有 的 计算 价值 ， 并 修改 了 词汇 向 量 空 间 的 生成 方法 ， 提 出 
了 “virtual sentences” 了 映射 到 向 量 空间 做 相似 度 计 算 。 很 多 的 文 
本 分 割 方法 并 不 能 直接 用 于 对 话 系 统 中 的 话题 分 制 ， 因 为 对 话 


中 可 用 的 信息 只 有 上 文 ， 而 文本 文档 中 是 上 下 文 全 部 的 信息 ， 


但 是 上 面 提 到 的 这 些 分 析 方 法 和 方案 都 具有 借鉴 意义 ， 本 文 


Ey 


的 准确 率 。 
2 ”对 话 系统 话题 分 割 方法 


2.1 词语 相关 性 计算 
在 之 前 的 工作 中 ， 很 多 分 割 模型 话题 边界 的 确定 依赖 了 


开放 域 文本 的 相关 度 计算 应 用 于 对 话 系 统 的 话题 分 割 ， 以 通 
文本 相似 度 之 外 的 其 他 隐 含 语义 判定 话题 边界 ， 提 高 话题 分 审 


这 


5 


nm 


对 


上 下 文句 子 相似 性 的 判断 ， 本 文 将 改 用 计算 上 下 文句 子 的 相关 


性 来 判断 话题 的 边界 。 


相关 性 表示 两 个 词 的 互相 关联 程度 ， 即 从 一 个 词 关联 到 另 


一 个 词 的 概率 ， 也 可 表示 两 个 词 出 现在 同一 句 话 或 相 邻 两 句 话 


中 的 概率 ， 计 算 公 式 如 式 (6) 所 示 。 


Correlation(w,w, ) = P(w, | w) 


(6) 


示 源 向 量 到 目标 词 向 量 路 径 上 节点 的 编码 序列 ， 


求 得 预测 目标 


词语 向 量 过 程 中 在 各 个 节点 的 概率 ， 再 将 整 条 路 


径 上 算出 的 概 


率 相 乘 , 最 终 得 到 两 个 词语 的 似 然 概 率 , 计算 过 程 如 式 (8) 所 示 。 


P(w, lw)=P(j1C0)=T Te Pi(i0,c) ®) 


算法 1. 词语 的 


相关 性 计算 


Input:VectorSpace,wi,wj 


Output:P 


1:Correlation(VectorSpace,wi,wj) 


return P 


2:Wi € GetVector(VectorSpace,wi) 


3:Cj € GetHPath(VectorSpace,wj) 


4:P 和 所 1.6 


5:for all cECcj do 


6: pE€ a*p 
7: PE€ Pp*p 
8:end for 


1(wi,0,c) 


其 中 : ;表示 词语 w 在 向 量 空间 中 的 向 量 ，j 表示 词语 wj 的 向 


量 表示 ” CQ 丰 


个 需要 训练 的 超 参 数 ， 表 示 路 径 


上 的 距离 惩罚 


系数 ， 用 于 平衡 不 同 距 离 上 的 词语 对 预测 概率 的 影响 ， 有 具体 计 
算 过 程 如 算法 1 所 示 。 通 过 该 算法 计算 得 到 两 个 词语 的 似 然 概 
率 ， 代 表 这 两 个 词语 同时 出 现 的 概率 ， 即 两 个 词 


2.2 ”对 话 系 统 


话题 分 割 


假设 相 邻 两 个 句子 分 别 为 5, 和 8 ， 首 先 根据 TF-IDF 算法 


和 规则 过 滤 获 


取 句 子 的 关键 词 P]， 根 据 Wu 等 人 
答 语句 时 的 参数 ， 分 别 取 每 句 话 相 应 的 关键 词 进行 相关 性 


语 的 相关 性 。 


弛 处 理 匹 配 应 


(correlation) 计 算 。 每 个 句子 提取 核心 关键 词 作 为 


Si 


其 话题 关键 词 ， 


j 于 确定 句子 的 话题 和 句子 中 所 含 具体 内 容 。 将 5, 中 的 每 一 个 
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词语 与 $, 中 的 所 


词语 进行 相关 性 计算 ， 考 虑 到 


口语 对 话 中 各 


子 内 容 的 随意 性 和 复杂 性 ， 为 了 降低 不 规范 文本 对 概率 计算 的 
影响 ， 取 一 个 词 对 应 的 相关 性 最 大 值 作为 该 词 与 句子 8 的 相关 
性 。 两 个 句子 的 相关 性 则 用 各 个 词 的 相关 性 均值 表示 。 其 相关 
性 计算 公式 如 式 (9) 所 示 。 

Corr(S, |S)= 3 me {P (wlw) (9) 
其 中 ,六 和 分 别 表示 句子 8 与 8 分 词 后 所 包含 词语 的 个 数 ， 


w 与 w) 分 别 代表 句子 8 与 9 中 的 词 ，max(.) 表示 取 集 合 


大 概率 值 。 
为 了 将 词语 相 


鉴 N-gram 滑 窗 和 TextTiling 
天 记录 整理 


将 对 话 系 统 中 的 于 


关 怡 


计算 融入 对 话 系统 的 话题 分 割 ， 


中 最 


本 文 借 
算法 中 的 闵 值 判定 话题 边界 思想 。 


为 句子 序列 DT ={5,S,…S,}， 


以 句子 对 作为 滑 密 


车 本 单位 做 句子 相关 性 判 


r 


断 ， 模 拟 两 个 人 在 


对 话 , 再 通 


其 中 : itl 
于 计算 两 个 句子 


es 


seg(") 计算 两 句 话 


过 训练 获得 话题 分 割 的 阐 


seg (5S,, 


5 与 5,, 是 句子 序列 
的 整体 相关 性 ，。 为 训练 得 到 的 分 割 闪 值 ， 
间 是 否 存在 分 


8 1)= 人 if Corr(SisSin) > (10) 


otherwise 


中 前 后 相 邻 两 个 句子 ，Corr(.) 


割 点 。 


如 算法 2 所 示 ， 问 分 种 
后 就 可 以 判断 中 间 是 否 需 要 设置 分 


天 检测 函数 输入 连续 待 分 割 的 句子 之 


钊 | 点 。 


算法 2. 对 话 系 统 话题 分 割 


Input :9i, 9i+1 


Output: seg 


1:Segment(Si,Sin) 


return seg 


值 , 计算 公式 如 式 (10) 所 示 。 


何 天 文 ， 等 : 基于 词语 


ChinaXiv 合 作 期 刊 


天 相关 性 的 对 话 系 统 话题 分 


表 1 多 轮 对 话 数 据 


割 


项 目 训练 集 ”验证 集 ”测试 集 

对 话 数 lm 50k 10k 

对 话 的 平均 正 样本 数 1 1 1.18 

Fless Kappa NA NA 0.41 

对 话 中 最 小 轮 数 3 3 3 

对 话 中 最 大 轮 数 98 91 45 

每 组 对 话 的 平均 轮 数 6.69 6.75 5.95 

每 组 对 话 的 平均 词 数 ”18.56 18.50 20.74 
对 开放 的 数据 进行 随机 采样 ， 最 终 使 用 50 万 组 对 话 构成 
训练 集 ，2.5 万 组 对 话 构成 验证 集 ， 测 试 集中 数据 为 1000 组 。 
数据 集中 已 经 人 工 对 对 话 数据 是 否 存在 话题 转移 做 了 标注 ， 数 
据 样 例如 表 2 所 示 ， 标 签 就 是 对 话 对 应 的 标注 ， 黑 体 字 表示 可 
能 出 现 话题 转移 的 位 置 ， 标 签 为 1 的 表示 句子 描述 内 容 属 于 局 


一 话题 ， 标 签 为 0 的 表示 出 现 话 题 转移 ， 前 后 内 容 不 连贯 。 


表 2 训 


练 数据 集中 的 数据 样 例 


对 话 数据 


昆明 那里 
竞争 价格 


配 日 


昆明 那里 配 上 


有 竞争 价格 会 


全 
三 


近 的 吧 谢谢 


民 镜 比较 便宜 / 云 大 附近 很 多 店 应 该 
下 来 一 点 的 吧 / 给 推荐 个 云 大 附 
/去 了 就 能 看 到 比如 云 光 什么 的 

民 镜 比较 便宜 / 云 大 附近 很 多 店 应 该 
下 来 一 点 的 吧 / 给 推荐 个 云 大 附 


近 的 吧 谢谢 /你 的 他 毕竟 还 是 说 了 我 的 完全 
没有 任何 消息 我 伤害 了 他 于 是 15 天 没 消息 


3.2 ”对 话 系统 中 话题 分 割 


2:r € 0.0 maxresult € 8.0 为 了 验证 相关 性 与 相似 性 在 话题 分 割 这 个 具体 应 用 场景 中 
3:for all WESitl do 的 差异 性 ， 本 文 设计 了 对 话 系统 的 话题 分 割 实验 。 为 了 测试 不 
4: for all wEsi do 同 边界 分 割 阔 值 对 对 话 中 话题 分 割 准 确 率 的 影响 ， 本 文选 择 了 
5: result[] € Corr(wi|wi) 在 训练 集 上 准确 率 较 高 的 三 个 精确 到 个 位 的 分 割 阔 值 在 测试 集 
6: end for 上 进行 了 测试 ， 测 试 结果 如 图 1 所 示 。 
7: maxresult € max(result[]) + maxresult 从 图 中 可 以 看 出 ， 在 阔 值 为 24.0 时 准确 率 达 到 0.544， 而 
8:end for 另外 的 两 个 阔 值 的 准确 率 则 在 0.515 到 0.530 范围 内 波动 。 分 
9:r € maxresult/len(Sin1) 制 疮 值 需要 判断 所 有 对 话 是 否 出 现 了 话题 转移 ， 数 据 集中 存在 
10:seg € Seg(r) 部 分 话题 转移 不 是 特别 明确 的 一 些 对 话 ， 造 成 所 有 准 值 的 准确 
3 ”实验 分 析 率 在 某 一 部 分 数据 集 上 准确 率 都 有 所 下 降 ， 如 在 数据 量 为 400 
和 800 时 ， 准 确 率 都 上 升 说 明 对 话 中 出 现 了 明显 的 话题 转移 。 
3.1 实验 准备 图 中 显示 出 准确 率 最 高 的 分 割 阔 值 波动 频繁 但 趋 于 稳定 ， 与 其 
实验 中 使 用 的 词 向 量 空 间 ， 是 用 多 个 领域 的 800 万 篇 文章 他 阔 值 的 准确 率 在 整体 趋势 上 保持 一 致 性 。 
训练 得 到 的 ， 是 中 文 的 平衡 语料库 ， 其 中 还 包含 了 常见 英文 词 在 对 比 实验 中 , 本 文选 择 的 对 比 模型 与 song 选择 的 对 比 模 
汇 。 使 用 Google 的 Word2Vec 进行 训练 ， 向 量 维度 为 256 维 ， 型 一 样 : 一 个 是 随机 分 割 模 型 ， 另 一 个 是 结合 了 TF-IDF 的 
训练 时 设置 窗口 大 小 为 10， 最 小 词 频 限制 为 645]。 训 练 数据 。 ”TextTiling 模型 , 在 对 比 实验 中 代表 相似 性 方法 。 随 机 分 割 模型 
和 测试 数据 则 使 用 Wu 等 人 的 文章 提供 的 公开 聊天 语 料 P9， 原 中 ， 本 文 参考 已 有 工作 的 处 理 方式 ， 得 分 的 获取 并 不 是 完全 随 
数据 中 含有 从 微 博 及 豆 为 讨论 组 朴 取 的 多 轮 对 话 数据 ， 数 据 的 机 分 割 的 处 理 方法 ， 而 是 在 随机 过 程 中 添加 了 部 分 先 验 知识 。 
数据 量 、 对 话 轮 数 等 具体 信息 如 表 1 所 示 。 先 验 知识 的 作用 是 通过 训练 集中 正 样本 的 高 频 词 对 测试 集 句 子 
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录用 稿 何 天 文 ， 等 : 基于 词语 相 的 对 话 系统 话题 分 割 


中 的 关键 词 进 行 约束 。 另 一 个 对 比 模型 则 是 使 用 相关 实验 中 的 ” 确 率 能 达到 0.54。 

对 比 模型 ， 在 经 典 TextTiling 方法 上 做 的 改进 是 在 分 割 计算 过 本 文 还 在 比较 不 同方 法 准确 率 基 础 上 ， 对 方法 的 召回 率 进 

程 中 融合 了 上 下 名 文本 中 词语 的 TFIDF 特征 信息 。 实验 中 使 用 行 了 比较 ， 召 回 率 的 比较 结果 如 图 3 所 示 。 图 中 显示 了 随机 分 

三 个 方法 在 测试 数据 集 上 进行 测试 ， 实 验 的 结果 如 图 2 所 示 。 割 、TextTiling 和 相关 性 计算 三 种 方法 的 召回 率 , 相关 性 方法 的 
召回 率 也 是 最 高 的 。 


| 


全- ”随机 分 着 
®—® TextTiling 


太一 妇 相关 性 方法 


100 200 300 400 500 400 m0 00 900 1000 


1 不 同 六 值 在 测试 集 上 的 准确 率 
图 3 不 同方 法 在 测试 集 上 召回 率 对 比 


吧 


和 一 随机 分 关 从 图 3 中 
©—® TextTiling 


可 


[以 看 出 TextTiling 和 相关 性 计算 两 种 方法 的 召 
率 表现 出 小 幅 波 动 ， 而 且 相 关 性 方法 开始 的 波动 较 大 ， 说 明 
方法 能 识别 出 大 部 分 需要 分 割 的 数据 。 这 一 部 分 也 是 分 割 阔 值 
准确 率 波动 到 最 高 的 数据 段 ， 说 明 受 分 割 阔 值 的 影响 同时 提高 
了 准确 率 和 召回 率 。 但 是 当 数 据 量 达 到 600 之 后 召回 率 基 本 趋 
于 稳定 ， 和 准确 率 趋势 是 一 样 的。 通过 以 上 相关 性 方法 与 对 比 
方法 的 比较 ， 证 明 该 方法 的 有 效 性 。 


回 


| 


4 ”结束 语 
100 20 30 40 50 0 0 80 90 1000 
对 活 数 


ee 本 本 文 首 先 分 析 了 相似 性 与 相关 性 在 语义 计算 过 程 中 的 不 同 
图 2 不 同方 法 在 测试 集 上 的 准确 率 对 比 


之 处 ， 分 析 了 相似 性 计算 存在 的 问题 ， 并 在 已 有 工作 基础 上 提 
图 中 对 比 的 是 三 个 方法 在 测试 集 上 的 准确 率 ， 从 图 中 可 以 ” ”出 在 词 向 量 空 间 中 计算 词语 相关 性 的 方法 。 针 对 对 话 系 统 中 话 
看 出 ， 三 个 方法 的 准确 率 都 高 于 50%， 说 明 随 机 分 割 方法 中 的 。 题 分 割 任务 ， 通 过 计算 句子 中 词语 的 相关 性 ， 使 用 最 大 采样 方 
先 验 知识 在 判断 分 割 点 时 候 也 起 到 了 一 定 的 作用 。 而 且 相 关 性 ”法 计算 出 句子 之 间 的 相关 性 。 以 此 将 计算 词语 相关 性 的 方法 拓 
计算 方法 比 利 用 文本 相似 性 的 TextTiling 准确 率 高 出 2%。 随 着 ，” 展 到 计算 对 话 系统 中 上 下 文句 子 的 相关 性 ， 并 将 该 方法 用 于 在 
数据 量 的 增加 TextTiling 方法 和 相关 性 方法 都 有 大 幅 波 动 ， 经 ”开放 域 范围 内 确定 对 话 中 话题 分 割 点 的 位 置 。 根 据 确定 的 分 割 
过 对 实验 数据 分 析 认 为 这 些 波动 是 由 数据 中 的 较 短 文本 造成 的 ，“” 点 划分 对 话 中 的 不 同 话题 ， 实 现 话题 转移 检测 。 通 过 与 其 他 分 
虽然 标注 者 能 够 判断 出 来 , 但 是 类 似 “ 怎么 “谢谢 “好 的 入 制 方法 的 对 比 , 实验 结果 显示 准确 率 比 对 比方 法 提高 了 2%, 有 
“可 以 ”等 极 短 的 文本 会 对 分 割 阔 值 判断 分 割 边界 准确 性 造成 ” 较 高 的 召回 率 ， 证 明了 相关 性 计算 的 有 效 性 。 
较 大 影响 。 图 中 显示 出 相关 性 方法 的 准确 率 比 TextTiling 方法 本 文 提 出 的 利用 相关 性 分 析 进 行 对 话 系统 话题 分 割 的 方法 
的 准确 率 高 ， 相 关 性 方法 在 处 理 相关 性 计算 时 采用 了 最 大 采样 ”还 存在 一 些 不 足 。 词 语 语义 相关 性 计算 过 程 中 对 词语 的 向 量 空 
方法 ， 以 尽 可 能 放大 关键 词 之 间 的 相关 性 ， 同 时 减 小 低频 词 、 间 依 赖 较 大 ， 因 为 对 话 系统 中 的 分 割 任务 面向 的 是 开放 域 ， 向 
f 词 和 专业 词汇 的 相关 性 对 句子 整体 相关 性 的 影响 ， 增 加 了 方 。 量 空间 的 有 限 性 也 会 降低 一 些 新 出 现 的 词汇 间 相 关 性 的 准确 率 。 
法 的 鲁 棒 性 。TextTiling 算法 中 的 所 有 词 都 会 参与 运算 , 结果 中 日 于 判断 话题 转移 设置 分 割 点 的 相关 性 阔 值 的 确定 ， 受 训练 数 
包含 多 组 相似 性 为 0 的 结果 ， 不 能 降低 短 词语 对 相似 性 计算 ” 据 集 的 影响 较 大 ， 而 且 该 阔 值 的 确定 需要 较 大 数据 量 ， 同 时 对 
准确 度 的 影响 ,造成 得 到 的 句子 之 间 的 相似 性 会 有 较 大 的 偏差 。 “数据 质量 要 求 较 高 。 下 一 步 工作 将 针对 上 述 几 个 问题 展开 ， 进 
song 的 模型 在 词 向 量 映射 过 程 中 使 用 了 改进 后 的 Word2Vector ”一步 提高 算法 鲁 棒 性 。 
方法 ， 因 缺少 数据 和 程序 而 无 法 复 现 ， 但 其 文章 中 给 出 话题 分 

制 任务 中 的 准确 率 为 0.521, 而 本 文 提 出 的 相关 性 计算 方法 的 准 


ak 


区 是 


冰 


录用 稿 


参考 文献 : 


[1] Metallinou A, Bohus D, Williams J, et al. Discriminative state tracking for 
spoken dialog systems [Cl]// Proc of Meeting of the Association for 
Computational Linguistics. 2013. 

[2] Song Yiping, Yan Rui, Li Xiang, et al. Two are better than one: an ensemble 
of retrieval-and generation-based dialog systems. 2016. arXiv: 1610. 07149. 

[3] Lopez-Cozar R, Callejas Z, Griol D, et al. Review of spoken dialogue 
systems [J]. Loquens, 2014, 1 (2): e012. 10. 3989//loquens. 2014. 012. 

[4] Sikdar U K, Ekbal A, Saha S, et al. Differential evolution-based feature 
selection technique for anaphora resolution [J]. Soft Computing, 2015, 19 
(8): 2149-2161. 

5] 刘 群 , 李 素 建 , 基于 《 知 网 》 的 词汇 语义 相似 度 计 算 [J 中文 计 算 语言 

学 , 2002 (7): 59-76. 

6] 钟 诚 生 , 刘 臣 , 刘 舌 . 词汇 间 语 义 相关 关系 量化 计算 方法 [J]. 中 文 信 

息 学 报 , 2009, 23 (2): 115-122. 

7] 庆 大 及. 随机 事件 的 不 确定 性 或 信息 量 的 度量 一 一 信息 业 [中 . 毕节 学 

完 学 报 : 综合 版 , 2006, 24 (4): 35-38. 

. 基于 中 文 维基 百科 的 词语 相关 度 计算 [J]. 


情报 学 报 , 2012, 31 (12): 1265-1270. 


8] 诺 志 群 , 高 飞 ， 曾 智 军 ， 


9] Pu X, Jin R, Wu G, et al. Topic modeling in semantic space with keywords 


[C]J/ Proc ofConference on Information and Knowledge Management. 2015: 


1141-1150. 

[10] Hearst M A. TextTiling: segmenting text into multi-paragraph subtopic 
passages [J]. Computational Linguistics, 1997, 23 (1): 33-64. 

[11] Liu C, Wang Y, Zheng F, et al. Using LSA and text segmentation to improve 
automatic Chinese dialogue text summarization [J]. Journal of Zhejiang 
University Science, 2007, 8 (1): 79-87. 

[12] 邹 博 伟 ， 张 字 , 范 基 礼 , 等 . 基于 改进 TextTiling 方法 的 用 户 新 兴趣 发 
现 的 研究 [J]. 计算 机 研究 与 发 展 , 2009, 46 (9): 1594-1600. 


[13] Joty S, Carenini G, Ng R T. Topic segmentation and labeling in 


naxi 
hil AX IV 


( V 合 作 期 刊 
何 天 文 ， 等 : 基于 询 语 本 相关 ， 竹 的 对 荐 系统 话题 分 割 


asynchronous conversations [J]. Journal of Artificial Intelligence Research, 
2014, 47 (1): 521-573. 

[14] Malioutov I, Barzilay R. Minimum cut model for spoken lecture 
segmentation [C]// Proc of International Conference on Computational 
Linguistics and Meeting of the Association for Computational Linguistics. 
Association for Computational Linguistics, 2006: 25-32. 

15] Ye N, Zhu J, Wang H, et al. An Improved Model of Dotplotting for Text 

Segmentation. [J]. Journal of Chinese Language and Computing, 2007. 

16] Blei D M, Lafferty J. A correlated topic model of Science [J]. The Annals of 

Applied Statistics, 2007, 1 (1): 17-35. 

唐 慧 丰 . 面向 自动 文摘 的 主题 划分 


17] 童 裔 见 ， 方法 [加 . 北京 大 学 学 报 : 


自然 科学 版 , 2013, 49 (1): 39-44. 


18] El-Kishky A, Song Y, Wang C, et al. Scalable topical phrase mining 位 om 
text corpora [J]. Proceedings of the VLDB Endowment, 2014, 8 (3): 305- 
316. 

[19] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word 

representations in vector space [J]. Computer Science, 2013. 

[20] Mnih A, Hinton G. Three new graphical models for statistical language 
modelling [Cl]// Proc of International Conference on Machine Learning. 
ACM™M, 2007: 641-648. 

[21] 牛 萍 ， 黄 德 根 . TF-IDF 与 规则 相 结 合 的 中 文 关键 词 自动 抽取 研究 [J]. 

小 型 微型 计算 机 系统 , 2016, 37 (4): 711-715. 

[22] Wu Yu, Wu Wei, Chen Xing, , et al. Sequential matching network: a new 
architecture for mnulti-turn response selection in retrieval-based chatbots 
[CI/ Proc of the 55th Annual Meeting of the Association for Computational 
Linguistics. 2016: 496-505. 

[23] Su Jianlin. Incredible Word2Vec [EB/OL]. [2017-05-08]. http://spaces. ac. 
cn/archives/4304/, 

[24] Wu, Yu, et al. "Sequential Matching Network: A New Archtechture for 


Multi-turn Response Selection in Retrieval-based Chatbots. "ACL. 2017. 


